查看原文
其他

刘华 | 基于影视资源库的汉语移动学习资源建设

刘华 外研社国际汉语
2024-09-04


汉语移动学习是利用智能手机、平板电脑等移动设备,在移动环境下,以培养二语学习者汉语交际能力为目的的基于情境的交互式学习模式,具有碎片化、话题化、多媒体化和集约化特点。可以基于影视资源库,采用话题识别、词语聚类、词语分级、常用句子抽取等方法,构建基于影视资源的分话题、分级的常用词、常用句资源库,利用话题化的多媒体资源辅助汉语移动学习。



汉语移动学习资源建设的需求与特点


(一)汉语国际教育中影视教学的启示


视听法、情景法、交际法为影视在汉语教学中的应用提供了理论支持。Herron 和 Seay(1991),曹莉敏(2011),Bahrani 和 Sim(2012)等认为影视能够为二语学习提供有效的语言输入,增强学习效果。


汉语教学中的影视材料分为两种。一种是根据教学目的设计制作的电视教材,其优点在于教学信息集中,目的明确,语言要素编排合理,但故事欠缺情节性,语言稍生硬,不够贴近生活。另一种是选用现有影视剧改编而成的教材,其优点在于故事完整,情节性强,语言生动自然,但缺乏系统性和针对性,语言难度跨度大。


(二)汉语学习目标与移动学习要求相结合的资源特点


移动学习设备的移动功能、多媒体功能更适合口语(听说)学习。话题场景与影视相结合的汉语口语教学资源,符合移动学习资源的碎片化、话题化、多媒体化和集约化的特点与需求。


第一,“看电影,学汉语”,建设话题化、场景化的多媒体学习资源,提高学习趣味性,让学生“乐学”。汉语移动学习的内容应该基于鲜活的口语素材,应面向交际功能、基于场景分割,建设针对具体交际话题的、趣味性高的影视资源来提高教学效果。

第二,“集约化学习”,建设汉语学习最常用的、最简洁的多媒体资源(最简方案),达到“精学、快学”的目的。汉语移动学习移动性、碎片化的特点决定了其学习内容应该高度浓缩,在有限的碎片时间内只学习最常用的、最简洁的交际内容。汉语学习也有其“最简方案”,应该以最小的学习投入获得最大的学习回报。

第三,“场景化学习”,影视视频是基于各个交际场景的话题的片段集合,能将真实的交际场景展示给学生,能解决移动学习中缺乏学习环境、语境、语伴的难点、痛点


汉语移动学习集约化多媒体资源构建方法


我们重点探讨影视字幕文本分割和话题识别的智能方法,将“话题、交际图式、常用会话、常用句子、常用词语”结合起来,探讨分话题、分级别的常用词、句、篇综合资源库的构建理论与方法。


(一)基本思路与流程


基本思路与流程如图1:



(二)中文影视资源库、汉语教学话题库建设


我们基于影视的当代性、生活化、多题材原则,构建影视资源库,包含字幕对话文本、视频文件,建设汉语教学常用话题库(7大类,45个二级话题,120余个三级话题,见表1示例)。



(三)影视字幕按话题进行自动分割、识别


利用话题分析方法,以话题库为纲,对每一话题,截取若干热门影视剧中的相关度高的交际片段,标记交际场景,构建话题对应的影视对话片段库及其影视视频资源库,共约4000个短视频。


其中,关键的“启发式的、基于迭代增量学习策略的话题识别和词语聚类一体化算法”(Liu,2013)如下:


1. 专家构建话题识别的初始话题模型库。如“出行—的士”的话题模型为:的士(3.8)、出租车(3.7)、打的(3.5)、师傅(2.6)、司机(2.4)、上车(2.3)。

2. 预处理。任意两句对话之间如间隔超过6秒,可设定为天然分割标记,进行粗分割。

3. 将初始话题模型库作为启发式知识,利用文本分类方法进行话题识别,提取出该话题的相关对话流片段,更新该话题的对话流片段库。

4. 基于对话流片段库,进行词语聚类,提取出该话题的话题词语集合,将话题词语集合加入种子词中,扩充种子词,更新权重,重构初始话题模型库。

5. 迭代(3)和(4),直到提取的话题词语集合变化很少或对话流片段库增加很少。


(四)话题影视会话相关度排序


利用文本分类方法,计算各影视片段与话题之间的相关程度,从高到低智能排序,以便最相关的会话片段先教先学。


相关度是指影视片段与其所属话题的关联程度,即代表性。可以从两个方面来衡量影视片段的相关度:用词用语、交际场景


我们利用文本分类中的向量空间模型和夹角余弦的相似度计算方法,为所有片段(文本)计算其对于话题(类)的相似度。相似度降序排列,影视片段和话题的相关度就从高到低分级了。


(五)话题影视会话常用度分级


结合计算语言学方法,利用《汉语国际教育用音节汉字词汇等级划分》中的“词汇等级划分”,计算话题内各影视片段的常用度,按常用度进行分级,以便最常用的会话片段先教先学。过程如下:


1. 将影视片段分词。使用最新版的《现代汉语词典》作为词汇的确定标准,对超出《现代汉语词典》的词语,基于该词典进行二次分词。

2. 赋予一级词汇权重为1,二级为2,三级为3,附录为4,纲外词汇权重为5。对于分词校对后的影视片段,将其词汇赋予不同权重,统计其所有词汇的平均权重

3. 片段长度,即词语数量,也会影响常用度,我们将词语数取常用对数后(平滑其影响),与平均权重相乘,即为常用度

4. 最终,按常用度从高到低排列


(六)话题分类分级的常用词语库建设


利用词语聚类方法,选取各交际图式对应的话题词语,自动进行话题词语聚类,并按常用度将词语分级。


词语聚类分类与词语的空间(类别/话题/语体)分布不均匀性密切相关。


词语聚类的核心原理是利用词语在不同话题语料中分布的差异性来计算词语对于该话题的贡献度。比如,功能性虚词(如“的、在、和”)在不同话题语料中出现的频率几乎一样,散布均匀;而某些词语(如“的士、出租车、打的”)在“出行—的士”话题语料中出现的频率会远高于它们在其他话题(如“点餐、银行、打招呼”)语料中的频率,因此它们是“出行—的士”话题中的领域词语。


如何模拟词语在不同话题语料中分布的不均匀性?方差是体现数据分布是否均匀的很好的数学指标,信息检索中表示词语重要程度的常用公式是TFIDF,其中IDF描述的是词语使用范围的大小。这两个指标皆可用来模拟分布的不均匀性,以此进行词语自动聚类。


(七)话题分类分级的常用句库建设


分析各话题对应的交际图式,根据交际图式及常用会话,选取各话题常用句子,按常用度将常用句子分级。


从意义上来说,常用是指句子表达的内容与会话(或交际图式)内容相关性较高;从形式上来说,常用还在于其生成性高,常用句在结构上没有必然标记,但仍然有一定的框架式结构,存在骨架和空位部分。


例如,“我要订去北京/广州/香港的飞机/火车/汽车票。”这个句子表达的是交通出行中的订票内容,其交际构式可概括为“我要订去…… 的……票。”


但是对于句子常用性标准的确定与自动抽取仍是难点。


汉语移动学习集约化多媒体资源展示


基于教材和影视字幕中的会话语料,结合“话题—交际图式—常用会话—常用句子—常用词语”,提取多媒体的分级的、分话题的常用词语库、句库、会话库。最终,构建一个按话题分类的多媒体的“常用词、句、式、篇”的会话资源库,辅助汉语移动学习。


例如:智能获取“交通出行—买票订票”话题相关的多个电影会话字幕、视频片段,按相关度和难易度排序分级;该话题的交际图式是“打招呼— 提出需求—确认信息—付费—取票”;词语聚类后, 图式“提出需求”的中级最常用词语为“订、买、票价、机票、车票、预订”等;例句常用度计算后,中级最常用句子为“我要买一张去广州的票/……”,中级最常用构式为“我要买[(一/二……)张] 去(北京/广州/香港……)的(飞机/火车/汽车票)。/……”。


(一)话题分类难度分级的电影会话字幕示例


话题分类、难度分级的电影会话字幕示例如图2:



(二)话题分类的常用词和常用句示例


话题分类的常用词和常用句示例如表2:



(三)话题聚类、难度分级的常用词语表示例


构建共7大类,45个二级话题,初、中、高三级总共100余个话题常用词语表。



(四)难度分级、分交际环节的常用句表示例


构建共7大类,45个二级话题,初、中、高三级总共100余个话题常用句表。




本文摘编自《国际中文教育(中英文)》

2021年第1期

更多文章信息

请扫描下方二维码移步知网下载

扫码查看原文


2021年第1期


资源推荐


专题系列课程丨语料库语言学

——研究方法、工具与案例


由暨南大学博士生导师、“语言计算与智能汉语教学”系列图书作者刘华教授主讲的“语料库语言学——研究方法、工具与案例”专题系列直播课将于3月26日(下周六)10:00正式开讲,刘老师将围绕语料库语言学的基本研究方法、研究范式、研究工具及操作流程、研究案例分析等展开,通过4次课程讲解及2次课程答疑为大家全面拆解语料库语言学,为大家更高效地开展语言研究提供方法、工具及思路启发,欢迎报名参加~


3月25日17:00前早鸟报名还可享受前100名包邮赠书、3人团购限时5折优惠、“汉语助研”软件3折优惠等福利,课程提供培训证书和发票,报名成功后可在图示位置登记信息。


培训证书&赠书&发票信息登记


图书推荐


“语言计算与智能汉语教学”

系列图书

“语言计算与智能汉语教学”系列图书

(刘华著,外研社)


“语言计算与智能汉语教学”系列图书为暨南大学刘华教授所著,由外研社出版,系列图书共九卷,包含6本理论研究著作和3本汉语教学常用词表,其中6本理论研究著作都是基于语料库和语言计算方法的面向智能汉语教学的理论、方法方面的研究成果,3本汉语教学常用词表则是基于上述理论著作中的语料库和语言计算方法构建的与商务汉语教学、华语教学、汉语口语教学理论相配套的分类分级的教学资源。目前第一卷、第二卷、第七卷、第八卷已出版,其他卷本也将陆续出版,敬请关注~

精选书摘丨第一卷:《语料库语言学——理论、工具与案例》

左右滑动查看第一卷目录


《国际中文教育(中英文)》期刊


刊物简介

《国际中文教育(中英文)》是由中华人民共和国教育部主管、北京外国语大学主办,外语教学与研究出版社、北外中国语言文学学院、北外孔子学院工作处共同承办的学术刊物。国内统一连续出版物号为CN10—1718/H,国际标准连续出版物号为ISSN2096—9716。季刊,16 开,公开发行。英文名称为International Chinese Language Education。

《国际中文教育(中英文)》办刊宗旨为:坚持正确的办刊方向和舆论导向,报道国内外中文教育教学政策和现状,反映国际中文教育推广的优秀成果和经验,探索总结科学有效的师资培养模式和语言学习推广政策,打造国际中文教育交流平台,推动国际中文教育与传播事业。


主要栏目

本刊特稿

专家主题论坛 

专业建设研究

教师培养发展 

中文教学研究

学习者研究

学术研究新论

二语习得研究

中文测评研究

海外教学动态

国际中文传播

新媒体教学研究

教学资源研究

中文教学漫谈

我的中文之路

书评/综评/综述



联系方式

  • 电子邮箱

    gjzwjy@fltrp.com  


  • 联系电话

    (8610)88819623(赵老师) 

    (8610)88819269(安老师)


  • 期刊订购方式:

    ①外研社天猫旗舰店(请用手机淘宝、天猫app扫描二维码进入)

      ②电话订阅 (8610)88819680



往期精选

1

专题系列课程 | 刘华:语料库语言学——研究方法、工具与案例

2

精选书摘丨语料库语言学——理论、工具与案例

3

宋继华丨“国际中文教育资源建设与智能技术应用”研究成果集锦

4

课程丨宋继华:国际中文教育资源建设与智能技术应用——以“长城汉语”为例

5

论文写作必备丨如何做好汉语国际教育研究设计与论文写作?

6

资源集锦 | 18款国际中文线上教学工具合集

7

图书导读|语言多棱镜——跨领域的语言学导引


编辑 | 李彩霞  赵青  安琪

美术编辑 | 杨立梦(实习)

原创稿件,转载请注明

来自微信订阅号:外研社国际汉语

欢迎分享与转发

关注我们

微信公众号

教学资源网

教师发展课程


点击“阅读原文”学习语料库语言学

继续滑动看下一个
外研社国际汉语
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存